Search CORE

90 research outputs found

Experiences in Automatic Keywording of Particle Physics Literature

Author: Dallman David
Montejo Ráez Arturo
Publication venue: Union of Concerned Scientists
Publication date: 01/01/2001
Field of study

Attributing keywords can assist in the classification and retrieval of documents in the particle physics literature. As information services face a future with less available manpower and more and more documents being written, the possibility of keyword attribution being assisted by automatic classification software is explored. A project being carried out at CERN (the European Laboratory for Particle Physics) for the development and integration of automatic keywording is described

E-LIS

Toward conceptual indexing using automatic assignment of descriptors

Author: Montejo Ráez Arturo
Publication venue
Publication date: 28/05/2002
Field of study

Indexing techniques have reached a well maturated state. Digital libraries and other digital collections make an intense use of these algorithms to store and retrieve documents. In the other side, we have browsing techniques, which lets the user to gather the information. Current approaches are not yet advanced enough in order to satisfy the user. At CERN we are working in a indexer based on thesaurus descriptors. With a collection of documents related to thesaurus, user can manipulate them in a more conceptual way. Here we describe the core of this system, the automatic descriptor assigner

CERN Document Server

Proyecto de indexado automático para documentos en el campo de la física de altas energías

Author: Montejo Ráez Arturo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2001
Field of study

Se describe aquí el sistema HEPindexer, un indexador automático para documentos sobre Física de Altas Energías. En su primera fase se ha conseguido la proposición de palabras clave primarias usando el tesauro del laboratorio alemán DESY. Los resultados, utilizando un enfoque estadístico, esperanzan la consecución de una herramienta eficaz de ayuda en el proceso de indexado

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Experiences in Automatic Keywording of Particle Physics Literature

Author: Dallman David
Montejo Ráez Arturo
Publication venue: Union of Concerned Scientists
Publication date: 01/01/2001
Field of study

Prediction system for job and service requests in professional sectors

Author: Montejo Ráez Arturo
Moreno Bermúdez Christian
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2016
Field of study

El presente trabajo presenta un sistema que predice peticiones de trabajos y servicios en formato de texto en categorías o sectores profesionales. Se realiza una comparativa de distintos algoritmos de Categorización Automática de Textos para evaluarlos y construir el sistema. El sistema forma parte de una aplicación web que intermedia entre particulares que demandan presupuestos sobre trabajos y profesionales que buscan clientes y ofertan servicios.System that predicts job requests and services in text format into categories or sectors. A comparison of different algorithms for Automatic Text Categorization is performed in order to build the final system. The system is part of a web application that mediates between individuals who demand estimates about jobs and professionals who seek clients and offer services

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Biblioteca de Complejidad Textual

Author: Collado-Montañez Jaime
López-Anguita Rocío
Montejo Ráez Arturo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/09/2020
Field of study

This paper introduces a new resource for computing textual complexity. It consists in a Python library for calculating different complexity metrics for several languages from plain texts. The resource has been made available to the research community and provides all needed instructions for its installation and use. To our knowledge, it is the first time a resource like this is published, so we expect many researchers can profit from it.Este artículo presenta un nuevo recurso para el cálculo de la complejidad textual. Se trata de una biblioteca de programación en Python que facilita el cómputo de distintas métricas de complejidad para varios idiomas a partir de textos en lenguaje natural. El recurso se ha liberado para su uso por parte de la comunidad científica y proporciona todas las instrucciones necesarias para su instalación y aprovechamiento. Hasta donde sabemos, es la primera vez que un recurso así está disponible, por lo que esperamos sea de utilidad.This work has been partially supported by Fondo Europeo de Desarrollo Regional (FEDER), LIVING-LANG project (RTI2018-094653-B-C21) from the Spanish Government

Repositorio Institucional de la Universidad de Alicante

Text categorization using bibliographic records : beyond document content

Author: Montejo Ráez Arturo
Steinberger Ralf
Ureña López Luis Alfonso
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2005
Field of study

En este artículo se estudia el uso de diferentes fuentes de información para tareas de clasificación de textos. Dado el creciente número de bibliotecas digitales, se impone una revisión de la información disponible en dichas bases de datos. Se han llevado a cabo una serie de experimentos de clasificación multi-etiquetado dentro del dominio de la Física de Altas Energías haciendo uso de diferentes clasificadores base y combinando distintas fuentes de información. Los resultados muestran que el uso de metadatos es tan válido como el uso de versiones a texto completo de los documentos.This paper studies the use of different sources of information for performing a text classification task. The growing number of digital libraries imposes a review of the available data from those databases. Some experiments applying different base classifiers for a multi-label classifier in the domain of High Energy Physics on several of these possible sources have been carried out. Results show that the use of metadata is almost as good as the full-text version of papers.This work is partially financed by the Spanish Minister of Science and Technology, by means of project TIC2003- 07158-C04-04

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

El Catálogo General del Patrimonio Histórico Andaluz en las hoyas de Guadix y Baza

Author: Montejo Ráez Alfonso
Viñuales Meléndez Olga
Publication venue: 'Instituto Andaluz de Patrimonio Historico - IAPH'
Publication date: 01/01/2012
Field of study

Activos Digitales IAPH

El catálogo general del patrimonio histórico andaluz en la campiña cordobesa

Author: Montejo Ráez Alfonso
Viñuales Meléndez Olga
Publication venue: 'Instituto Andaluz de Patrimonio Historico - IAPH'
Publication date: 01/01/2010
Field of study

Activos Digitales IAPH

Un enfoque del filtrado de léxico para perfiles de autor

Author: Espin-Riofrio César
Montejo Ráez Arturo
Ortiz Zambrano Jenny Alexandra
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/09/2023
Field of study

This paper studies the influence of a general Spanish lexicon and a domain-specific lexicon on a text classification problem. Specifically, we address the impact of the choice of lexicons for user modelling. To do so, we identify gender and profession as demographic traits, and political ideology as a psychographic trait from a set of tweets. We experimented with machine learning and supervised learning methods to create a prediction model with which we evaluated our specific lexicon. Our results show that the choice and/or construction of lexicons to support the resolution of this task can follow a given strategy, characterised by the domain of the lexicon and the type of words it contains.Este trabajo estudia la influencia de un léxico general del español y un léxico específico del dominio en un problema de clasificación de textos. En concreto, abordamos el impacto de la elección de léxicos para el modelado de usuarios. Para ello, identificamos el género y la profesión como rasgos demográficos, y la ideología política como rasgo psicográfico a partir de un conjunto de tuits. Experimentamos con métodos de aprendizaje automático y aprendizaje supervisado para crear un modelo de predicción con el que evaluamos nuestro léxico específico. Nuestros resultados muestran que la elección y/o construcción de léxicos para apoyar la resolución de esta tarea puede seguir una estrategia determinada, caracterizada por el dominio del léxico y el tipo de palabras que contiene.This work has been partially supported by projects Big Hug (P20 00956, PAIDI 2020) and WeLee (1380939, FEDER Andalucía 2014-2020) both funded by the Andalusian Regional Government, and projects CONSENSO (PID2021-122263OB-C21), MODERATES (TED2021-130145B-I00), Social-TOX (PDC2022-133146-C21) funded by Plan Nacional I+D+i from the Spanish Government, and project PRECOM (SUBV-00016) funded by the Ministry of Consumer Affairs of the Spanish Government

Repositorio Institucional de la Universidad de Alicante